贪婪之罪:Q |
您所在的位置:网站首页 › 贪婪 知乎 › 贪婪之罪:Q |
这篇文章的目的是介绍 Q-learning 中两种有趣的 bias,它们产生的原因不同,但都会对智能体学习最优策略产生很大的影响。在利用 Q-learning 及其派生方法解决强化学习问题时,应当警惕这两种 bias。文章的主要内容可以简单分为四个部分: 什么是 Q-learning?(已熟悉 Q-learning settings 的同学可以直接跳过)过度乐观引起的 Upward Bias在妄想中疯狂的 Delusional Bias总结与讨论什么是 Q-learning?Q-learning是强化学习里非常基础也非常重要的一个算法,是属于model-free、value-based、off-policy的一种方法。自 DeepMind 2015年在 Nature 杂志上发表 DQN(Human-level control through deep reinforcement learning)以来,深度强化学习逐渐在各个领域里取得了一定的成功,并且变得越来越热门(看看今年的 ICML 就知道啦~)。DQN 的成功正是建立在 Q-learning 的基础上,而后续这几年陆续被提出的很多先进的强化学习方法也是如此。 Q-learning,顾名思义,就是学习Q值,也即(状态-)动作价值,它表示遵循某个策略
![]() 假设我们用一个 由于我们不知道真实的 随着与环境的交互,随着一次次迭代,这个小目标会带领算法收敛到正确的 Upward Bias,或者说 Overestimation 问题最早是在1993年由 Sebastian Thrun 和 Anton Schwartz 两位学者提出(论文:"Issues in Using Function Approximation for Reinforcement Learning"),他们观察到 Q-learning 会有高估动作价值( 任何形式的估计误差都会招致 upward bias,误差可以来源于环境噪声也可以来自于函数逼近器自身或者别的各种原因。在初始学习时,我们并不知道真实的 ![]() 这里我们考虑一种简化的情况,状态是连续的,在每个状态下能执行的动作有10种,并且他们真实的 首先看上图的第一列,紫色线代表 再来看第二列,对应于第一列,第二列是对10个动作都尝试了拟合(10条绿线),当然,每条线都是基于不同的样本拟合出来的。黑色虚线是将这10条线的最大值标识出来,也即 这个例子很好地展示了,即使我们知道真实的 小结一下,由于我们总是贪婪地采用最大估计值来更新 相比 upward bias,对 delusional bias 的研究就新鲜多了,直到 2018 年它才被准确地揪出。这个概念源于 NeurIPS 2018 的最佳论文 "Non-delusional Q-learning and Value Iteration",ICML 2020 有它的后续研究 "ConQUR: Mitigating Delusional Bias in Deep Q-learning"。私以为这个名字取得是极好的,Delusional Bias,妄想偏差,比 Upward Bias 酷炫多了。用一句话概括就是: Delusional bias occurs whenever a backed-up value estimate is derived from action choices that are not realizable in the underlying policy class.一开始看这句话的时候我也没有很理解,其实说的是很直观的。通过下面这个例子,我们会清晰地认识到妄想偏差的由来: ![]() 截图来自 Tyler Lu 在 NeurIPS 2018 上的 Oral Presentation。这里以一个只有3个状态的 MDP 为例,状态1和2都可以执行 a, b 两个动作,但获得的奖励不同。在状态1执行动作 a 能得到$50,执行动作 b 则会被扣除$50,在状态2则恰恰相反。状态3可以执行的是 c, d 两个动作,执行动作 c 会以一定的概率转移到状态1或2,执行动作 d 则马上得到$1。 直观上来看,人类很快就能得到这个 MDP 的最佳策略,在状态3时执行动作 c 以转移到可以获得$50的状态1或2。在状态1我们会执行动作 a 拿下$50,在状态2我们会执行动作 b 拿下$50。假设我们用一个线性近似器来学习 很明显,当 遗憾的是,Q-learning 很可能学不到这个理论上最优的策略。因为在学习 小结一下,产生 delusional bias 的根本原因是函数近似器的表达能力有限,但它自己并不自知。在学习的过程中,它总是贪婪地想要获取最大利益,妄想自己能同时做到并不相容的事情(比如上述例子中同时在状态1选择动作 a 和在状态2选择动作 b)。 总结与讨论总结一下,这篇文章介绍了 Q-learning 中两种有趣的 bias,也即 upward bias 和 delusional bias,并通过例子进一步诠释它们产生的原因。当我们尝试解决一些现实问题,或在一些复杂环境中使用 Q-learning 或 DQN 等延伸方法时,除了调参,我们也需要注意这两种 bias 对效果的影响,对症下药才能炼出好丹~ 这里抛出几个问题,欢迎大家留言讨论: 如何甄别训练过程中出现了 upward bias 和 delusional bias?使用 On-policy 的学习方法是否还会出现 upward bias 和 delusional bias?Double Q-learning 是如何解决 upward bias 问题的?Delusional bias 是否是一个常见问题?使用更强的函数逼近器能解决吗?最后,如果这篇文章有帮助到你理解这两种bias,欢迎点赞、关注、收藏,素质三连 。 P.S. 封面图来自《猎人》贪婪之岛(Greed Island)篇,动漫有点老了,刚好切题就拿来当封面了哈哈。 |
今日新闻 |
推荐新闻 |
CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3 |